Перейти к основному содержимому

Быстрый старт: Mistral-7B On-Premise

Это руководство покажет вам, как развернуть модель вывода Mistral-7B на одном GPU A100-40GB с Compressa LLM.

GPU A100-40GB позволяет разместить Mistral-7B без квантизации.

Для примера мы будем использовать версию Mistral-7B openchat/openchat-3.5-0106.

Развертывание Compressa

Первым шагом необходимо развернуть Compressa в соответствии с инструкцией.

Предположим, что Compressa развернута на порту 8080, вы можете использовать REST API менеджера по адресу http://localhost:8080/api для загрузки и развертывания модели.

Полная информация о менеджере API доступна в инструкции или на странице Swagger по адресу http://localhost:8080/api/docs.

Загрузка модели

примечание

Если вы развертываете Compressa в частной сети без доступа к интернету, этот шаг можно пропустить. Пожалуйста, используйте инструкцию для загрузки ресурсов перед развертыванием.

Вы можете загрузить модель, используя следующую команду curl:

curl -X 'POST' \
'http://localhost:8080/api/v1/models/add/?model_id=openchat%2Fopenchat-3.5-0106' \
-H 'accept: application/json' \
-d ''

Кроме того, можно загрузить модель напрямую со страницы Swagger, нажав Try it out: Add model

Модель будет загружена в течение нескольких минут.
Процесс можно отслеживать через лог консоли или с помощью API.

Развертывание модели

Вы также можете развернуть модель, используя следующую команду curl:

curl -X 'POST' \
'http://localhost:8080/api/v1/deploy/' \
-H 'accept: application/json' \
-H 'Content-Type: application/json' \
-d '{
"model_id": "openchat/openchat-3.5-0106"
}'

Или напрямую со страницы Swagger: Deploy model

Развертывание займет менее минуты.

Доступ к модели

После развертывания модели, она будет доступна по адресу http://localhost:8080/chat:

Chat

и через API, совместимый с OpenAI, по адресу http://localhost:8080/api/v1/completions: